39 lingue in modo automatico: come la nostra traduzione basata sull’intelligenza artificiale gestisce la terminologia specialistica

Oggi la traduzione automatica è talmente accurata che in molti casi non si distingue più da quella umana. I servizi di traduzione producono testi fluidi, idiomatici e con un’adeguata sensibilità stilistica. Poi si traduce un set di dati DPP e improvvisamente «rear lock fiber closure» «chiusura in fibra con chiusura posteriore».

Il problema è la terminologia tecnica. Qui spieghiamo perché i dati di prodotto non vanno trattati come romanzi e quali strumenti mette a disposizione Transpareo affinché le vostre 39 versioni linguistiche rimangano comprensibili.

Il problema di fondo: una parola, diversi significati

«Seal» nel DPP di una giacca da outdoor: impermeabilizzazione. «Seal» in un laboratorio: foca o guarnizione, a seconda del contesto. «Seal» in un protocollo di manutenzione: in alcuni casi, un sigillo.

Un modello di traduzione generico sceglie in base al contesto statistico. In un testo scorrevole questo funziona: il romanzo fornisce un contesto abbondante. In un campo dati primary_closure: seal, invece, il contesto è quasi inesistente. Il modello formula un’ipotesi.

Il risultato sono errori sottili. Non così drammatici come «chiusura posteriore in fibra», ma con conseguenze significative: un componente che in tedesco si chiama «Dichtung» (guarnizione), in un DPP italiano viene improvvisamente chiamato «sigillo» anziché «guarnizione». Un acquirente non riesce più a trovare il pezzo di ricambio.

Cosa offre oggi Transpareo

Il nostro sistema di traduzione trasferisce automaticamente ogni nuovo contenuto in tutte le lingue attive. È caratterizzato da quattro aspetti:

Conservazione di Markdown e variabili: i segnaposto come <a href="/it/registrarsi">Abbonamento Pro</a> e le strutture Markdown vengono estratti prima della traduzione; viene tradotto il testo puro, dopodiché le strutture vengono reinserite senza modifiche. In questo modo, link, moduli e layout rimangono coerenti in tutte le lingue.
Voci di traduzione centralizzate: le traduzioni non vengono memorizzate nel record stesso, ma in un livello condiviso. Più record con lo stesso testo originale condividono una traduzione. Ciò consente di risparmiare sui costi di traduzione e di uniformare automaticamente i termini in tutto il modello di dati.
Nuova traduzione automatica in caso di modifica: se il testo originale viene modificato, le traduzioni vengono rigenerate in tutte le lingue. Una correzione in tedesco comporta l’aggiornamento automatico delle altre 38 versioni linguistiche.
Contrassegni per record: è possibile escludere contenuti dal processo automatico o bloccare le traduzioni esistenti, ad esempio per i nomi internazionali dei prodotti o per le correzioni manuali.

Dove il cliente integra l’elaborazione

La traduzione automatica fornisce risultati per lo più corretti per testi descrittivi, testi di marketing e istruzioni per la manutenzione. Nel caso di terminologia tecnica critica - come «seal»/«guarnizione» - rimane una quantità residua di errori che l’amministratore del cliente deve correggere.

In questo caso l’amministratore ha a disposizione tre strumenti:

Sovrascrittura manuale per lingua e chiave: ogni voce di traduzione può essere aperta nell’Application Manager e adattata per ogni lingua. Con il contrassegno di blocco, questa traduzione manuale viene mantenuta nel ciclo automatico successivo.
Importazione del glossario: la terminologia esistente proveniente da strumenti di traduzione o da glossari in formato PDF può essere importata come file CSV e generare direttamente voci di traduzione.
Correzioni per lingua in tempo reale: un addetto alle vendite italiano rileva un errore, lo corregge nell’Application Manager - la correzione ha effetto immediato, mentre le altre traduzioni rimangono invariate.

La realtà delle lingue dell’UE

24 lingue ufficiali dell’UE sembrano tante. In pratica si tratta di tre livelli:

Mercati principali: DE, EN, FR, IT, ES, NL - qui ogni consumatore si aspetta la perfezione
Mercati significativi: PT, PL, SV, DA, FI - buon livello, occasionalmente si nota la traduzione automatica
Lingue rare: MT, GA, ET, LV, LT - a volte si ha un DPP in maltese senza che un consumatore finale a Malta lo scansioni mai. Ciononostante è obbligatorio.

L’obbligo non è facoltativo. L’ESPR richiede che i contenuti DPP siano nella lingua dello Stato membro in cui il prodotto viene venduto. Chi serve 27 Stati deve quindi gestire 24 lingue (alcune sono condivise).

Perché un livello di localizzazione centralizzato

La maggior parte delle piattaforme memorizza le traduzioni come campi aggiuntivi nel record di dati: description_de, description_en, … 39 campi per ogni attributo traducibile. Sembra semplice, ma presenta tre svantaggi:

Testo duplicato. Due prodotti con la stessa descrizione del materiale generano 39 + 39 traduzioni invece di una sola serie di 39
Difficile da scalare. Aggiungere una 40ª lingua significa: migrazione dello schema su tutti i modelli traducibili
Difficoltà nell’applicare le correzioni a livello globale. Se «guarnizione» venisse corretta ovunque, tutti i record dovrebbero essere modificati singolarmente

Il livello di traduzione separato risolve il problema: una sola voce, molti riferimenti. Una correzione, tutti i record ne traggono beneficio.

Cosa ci manca ancora

Un database terminologico personalizzato con riconoscimento automatico dei suggerimenti è in fase di progettazione, ma al momento non è ancora disponibile. Chi inizia oggi può ottenere ottimi risultati con gli strumenti esistenti: sovrascritture manuali, importazioni di glossari e il contrassegno di conservazione coprono i casi d’uso più comuni.

Riteniamo che le macchine debbano svolgere la maggior parte del lavoro e che le persone debbano intervenire solo dove è davvero necessario. Finché il riconoscimento automatico della terminologia non sarà disponibile, l’intervento manuale è trasparente - e questo è più onesto di una promessa che non viene mantenuta.